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j " 

w Procedimento per eseguire prograrami su processor! 

- <• - 

e relativo sistema processore" 

*** 

5 

Campo dell ' invenzione 

La presente invenzione si riferisce ai processori 
ed ai procedimenti per l'elaborazione dei segnali 
attuabili con gli stessi. 

10 Descrizione della tecnica nota 

Nei sistemi per telefonia cellulare di seconda 
generazione (ad esempio GSM) o di tipo piu evoluto 
(GPRS, EDGE, UMTS), 1 ' architettura piu frequentemente 
utilizzata consiste di un sistema costituito da due 

15 processori. II primo processore, specializzato nel 
gestire la parte con piti. rilevante onere 
computazionale, e tipicamente costituito da un Digital 
Signal Processor o DSP. L'altro processore, con compiti 
di controllo, sincronizzazione ed esecuzione di 

20 applicazioni ad alto livello, si configura tipicamente 

come una CPU. 

Un esempio di architettura di questo genere e 
rappresentata nella figura 1, dove i suddetti 
processori, indicati rispettivamente come DSP e CPU 1, 

25 sono rappresentati insieme alle memorie cache ad essi 
associate, rispettivamente in funzione di cache 
istruzioni 1$ e di cache dati D$ . 

Con CMC sono indicati i moduli di interf accia, 
denominati Core Memory Controller, che permettono ai 

3 0 due sot to - sistemi facenti capo ai due processori DSP 
e CPU 1 di interf acciarsi tramite un bus principale B 
con la memoria principale di sistema MEM e con le varie 



unita periferiche PI, P2 , P3 , P4 # ... associate al 
si sterna. 

La specifica applicazione nel settore della 
telefonia cui si e fatto qui riferimento ha peraltro 
carattere puramente esemplif icat ivo e non implica 
quindi - neanche in modo indiretto - una limitazione 
del carattere af fatto generale dell ' invenzione che sara 
descritta nel seguito. Tale invenzione e infatti 
suscettibile di essere applicata in tutti i campi in 
cui pud essere utile impiegare un microprocessore. 

Tornando alio schema della figura 1, la CPU 1 e 
tipicamente un microprocessore scalare pipelined a 32 
bit. Scalare pipelined significa che la sua 
architettura interna e costituita da diversi stadi 
logici, ognuno dei quali contiene un' istruzione in un 
ben specif ico stato . Tale stato pud essere di : 

caricamento dell ' istruzione stessa dalla 

memoria, 

- decodifica dell ' istruzione , 

- indirizzamento di un file di registri, 

- esecuzione, 

- scrittura/lettura dati dalla memoria. 

II numero di bit su cui opera la CPU 1 si 
riferisce all'ampiezza dei dati sul quale la macchina 
opera. Le istruzioni sono generate ed eseguite una alia 
volta, in uno specif ico ordine definito tramite 
compilazione . 

L'altro processore, indicato con DSP, e 
tipicamente un microprocessore superscalare o VLIW 
(acronimo per Very Long Instruction Word) pipelined a 
128 bit. 

Superscalare pipelined significa che la sua 
architettura interna e costituita da diversi stadi 



- 3 - 



logici alcuni dei quali possono eseguire istruzioni in 
parallelo, ad esempio nella fase di esecuzione . 
Tipicamente, il parallelismo e di 4 istruzioni ciascuna 
(pari a 128 bit) mentre i dati sono espressi in 32 bit . 
5 II processore si dice superscalare se le 

istruzioni sono riordinate dinamicamente in fase di 
esecuzione in modo da alimentare gli stadi di 
esecuzione che potenzialmente possono lavorare in 
parallelo, anche alterando 1 7 ordine generato 

10 staticamente dalla compilazione del codice . sorgente , se 
le istruzioni non presentano dipendenze mutue . Lo 
svantaggio principale di questp approccio sta nella 
complessita della macchina risultante, in cui la logica 
di schedulazione delle istruzioni pud risultare essere 

15 una delle parti piu rilevanti in termini di numero di 
porte . 

Si parla di processore VLIW se le istruzioni sono 
riordinate staticamente in fase di compilazione ed 
eseguite in quell 'ordine fisso, non modificabile in 

20 fase di esecuzione. II vantaggio di tale approccio e 
che si elimina tutta la logica di gestione della 
schedulazione poiche si esegue questo task in sede di 
compilazione . 

Lo svantaggio principale sta nel fatto che il 

25 codice compilato - e strettamente dipendente 
dall' implementazione della macchina su cui viene 
eseguito. Ad esempio, pur a parita di architettura di 
insieme di istruzioni (Istruction Set Architecture o 
ISA) , una macchina con N unit a di esecuzione non pud 

3 0 eseguire un codice compilato per una macchina con K 
unita di esecuzione se K non e uguale a N. Da cid 
consegue che non c'e "compatibilita . binaria" tra 
diverse generazioni di processori con lo stesso ISA. 
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Si ricorda che per compatibility binaria si 
intende la proprieta esistente tra un gruppo di 
processori ognuno dei quali e in grado di eseguire uno. 
stesso dato codice macchina binario . 
5 Non si possono altresi creare sistemi 

multiprocessor! (ciascuno con diverso numero di unita 
di esecuzione) suscettibili di scambiarsi processi in 
corso di esecuzione. 

Nello schema della figura 1, ogni processore 

10 possiede la propria cache dati D$ ~ e la propria - cache 
istruzioni 1$, in modo da poter caricare dalla memoria 
principale MEM sia i dati sui quali operare, sia le 
istruzioni da eseguire in parallelo. Poiche i due 
processori CPU1 e DSP sono collegati alia memoria 

15 principale MEM attraverso il bus di sistema B i due 
processori si trovano tipicamente a competere per 
l'accesso a tale memoria quando un' istruzione e/o i 
dati su cui devono operare devono essere localizzati 
nella memoria principale non essendo disponibili nelle 

2 0 proprie cache. 

Un sistema ispirato all ' architettura rappresentata 
nella figura 1 ha una parti zione di lavoro e di 
processi rigida e non modif icabile , tale da rendere 
asimmetrico il carico di lavoro ed i programmi software 

25 da eseguire. 

A titolo di riferimento, un processore quale la 
CPU 1 possiede di solito 16 Kbyte di cache e 16 Kbyte 
di cache istruzioni. Questo mentre il processore DSP 
possiede di solito 32 Kbyte di cache dati e 32 Kbyte di 

30 cache istruzioni. 

II diagramma di flusso della figura 2 illustra lo 
schema logico della CPU descritto dall'alto verso il 
basso. II primo stadio, indicato con 10, genera 
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l'indirizzo di memoria al quale e associato 
l'istruzione da eseguire, tale indirizzo e detto 
Program Counter. Lo stadio 10 si configura quindi 
tipicamente come uno stadio di fetch, mentre 
5 l'istruzione cosi caricata viene decodificata nello 
stadio 12 separando il campo di bit che ne definisce la 
funzione (ad esempio di somma di 2 valori contenuti in 
due registri localizzati nel registro file) rispetto ai 
campi di bit che indirizzano gli operandi. Tali 

10 indirizzi sono inviati ad un file di registri dal quale 
(in uno stadio indicato con 14) vengono letti gli 
operandi dell ' istruzione . Gli operandi ed i bit che 
definiscono la funzione da eseguire sono inviati 
all'unita di esecuzione che, in uno stadio 16, realizza 

15 l'operazione desiderata, ad esempio l'operazione di 
somma a cui si e fatto riferimento in precedenza. 11 
risultato pud quindi essere ri-memorizzato nel file di 
registri in uno stadio 18 correntemente denominato 
stadio di Write Back. 

2 0 II process© schematicamente rappresentato dalla 

figura 2 opera in unione ad un unita di load/store che 
consente di leggere/scrivere eventual i dati in memoria 
con l'ausilio di specif iche istruzioni dedicate alio 
scopo . 

25 E' immediato riconoscere il fatto che il set di 

istruzioni e in corrispondenza biunivoca con una data 
architettura di CPU di microelaborazione . 

Il diagramma di flusso della figura 3 mostra 
invece lo schema logico del processore DSP. Anche in 

30 questo caso e previsto uno stadio iniziale di fetch 20 
cui e associato logicamente in cascata uno stadio 20a 
di emissione delle istruzioni. Il riferimento numerico 
22 indica invece uno stadio di decodifica mentre il 
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riferimento 24 indica un file registri (si faccia 
riferimento agli stadi 14 e 16 della figura 2). II 
riferimento 28 indica uno stadio di ri-memorizzazione 
nel file registri complessivamente affine alio stadio 
5 18 della figura 1. Nello schema della figura 3 ir 
riferimento 26 indica collettivamente una pluralita di 
stadi di esecuzione suscettibili di essere eseguiti in 
parallelo . 

Tanto nella figura 1 quanto nella figura 3 il 

10 riferimento CV7 indica le linee di - diramazione ~ delle 
parole di controllo. 

Si apprezzera che la principale differenza fra lo 
schema della figura 2 e lo schema della figura 3 e data 
dal fatto che nello schema della figura 3 e prevista la 

15 possibility di lavorare in parallelo su diversi insiemi 
di istruzioni. Un'altra differenza sta nel fatto che lo 
schema della figura 3 prevede 1 ' impiego di un maggior 
numero di unita esecutive disponibili suscettibili di 
operare in parallelo in un processore superscalare e 

20 VLIW. In entrambi i casi il set di istruzioni sta in 
corrispondenza biunivoca con una data architettura di 
microelaborazione . 

Supponendo che i due insiemi di istruzioni 
destinati ad essere eseguite dai processori CPU 1 e DSP 

2 5 siano diversi fra loro (cosi come . comunemente si 
riscontra nell ' architettura di processori wireless) si 
comprende che istruzioni (e quindi task da eseguire) 
suscettibili di essere eseguiti dal processore CPU 1 
non possono essere eseguiti dal processore DSP e 

30 viceversa . 

Affinche cio sia possibile e necessario compilare 
ogni processo per ogni processore, aumentando cosi la 
memoria del programma. Ogni volta che un processo deve 
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essere eseguito da uno specif ico processore, bisogna 
poi caricare ed eseguire il codice di quel task che e 
stato compilato per quel processore. Si riscontra 
inoltre il problema legato al fatto di dovere correlare 
5 i diversi punti di esecuzione parziale dei programmi 
quando li si voglia spostare da un processore all'altro 
(owero rimappare correttamente i Program Counter) , di 
dovere convertire tutti i dati di elaborazione dal 
sistema di rappresentazione di un processore all'altro 

10 (ad esempio il . contenuto dei registri ... di. stato e 
general purpose) . 

Quest i problemi sono di difficile risoluzione, per 
cui in genere un processo viene compilato ed eseguito 
su un solo processore . 

15 Con riferimento alle figure 4 e 5 e possibile 

considerare una sequenza di gruppi di istruzioni di 
detti processi. 

In generale si distinguono due tipi di processo, 
ossia: • 

20 - quelli relativi al sistema operativo e ad 

applicazioni che usano chiamate a funzioni del sistema 
operativo, e 

quelli relativi all ' elaborazione di contenuti 
multimediali (audio/video/graf ica) . 

25 In modo specifico, nello schema della figura 4 i 

riferimenti OsTask 1.1, 1.2, etc. illustrano processi 
suscettibili di essere eseguiti dal processore CPU1 . I 
processi indicati con MmTask2 . 1 , MmTask2 . 2 , MmTask2 . 3 , 
. . . identif icano invece processi compilati in modo da 

30 essere eseguiti dal processore DSP. 

A partire dallo schema della figura 4, che 
illustra una possibile assegnazione dei task ai due 
processori, si pu6 immediatamente risalire alio schema 
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della figura 5 che illustra il corrispondente flusso di 
istruzioni. 

Posto pari a cento il tempo totale di esecuzione 
dei processi, si osserva che i primi processi 
5 tipicamente durano il 10% del tempo, mentre i secondi 
occupano una parte ben piu rilevante, pari al 90%. 

Ancora, i primi processi contengono istruzioni 
generate dal compilatore del processore CPU 1 e quindi 
possono essere eseguiti dallo stesso, ma non dal 
10 processore DSP. Per i secondi processi vale il discorso 
esattamente complementare, nel senso che contengono 
istruzioni generate dal compilatore del processore DSP 
e possono essere quindi eseguiti da tale processore, ma 
non dall'altro processore CPU 1. 
15 Si osserva ancora che il processore CPU 1 e 

caratterizzato da un proprio flusso di compilazione, 
indipendente e distinto da quello del processore DSP. 

Dato il modesto carico di lavoro, si evince che il 
processore CPU 1 potrebbe essere anche spento quando 
20 non in uso, consentendo un sensibile risparmio 
energetico. 

Questa ipotetica soluzione (spegnimento del 
processore CPU 1 quando non utilizzato) si scontra con 
il fatto che le relative procedure di spegnimento o 
25 power-down introducono latenze aggiuntive di 
elaborazione e si sommano al valore di 10% indicate in 
precedenza. Le suddette procedure prevedono infatti: 

- lo spegnimento del processore CPU1, ad eccezione 
del rispettivo file registri tramite gating del segnale 
30 di clock che alimenta tutti i registri interni, 

lo spegnimento completo del processore CPU, 
salvo il fatto che viene mantenuta 1 ' alimentazione 
energetica delle memorie cache e 
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lo spegnimento del CPU nel suo complesso, 
comprese le cache dati ed istruzioni. 

Tuttavia, dato che lo stato del singolo processore 
deve essere ripristinato durante la riaccensione a 
5 seguito di una delle operazioni citate in precedenza, 
le latenze introdotte variano da decine di microsecondi 
a decine/centinaia di millisecondi . Queste latenze 
risultano particolarmente dispendiose, sia dal punto di 
vista energetico, sia dal punto di vista 
10 computazionale . 

Infine, il processore DSP d costretto a lavorare 
circa al 90% della sua capacita computazionale. Cid 
implica un evidente asimmetria nel carico di lavoro dal 
processore CPU rispetto al processore TSP, asimmetria 
15 che si rivela anche negli algoritmi di gestione 
dell ' alimentazione (power-management), che sono 
distinti per i due processori. 

Scopi e sintesi dell ' invenzione 

La presente invenzione si prefigge lo scopo di 
2 0 fornire una soluzione in grado di superare gli 
inconvenienti delineati in precedenza. 

Secondo la presente invenzione, tale scopo viene 
raggiunto grazie ad un procedimento avente le 
caratteristiche richiamate in modo specifico nelle 
25 rivendicazioni che seguono. L' invenzione riguarda anche 
il corrispondente sistema processore, in particolare 
multiprocessore . 

La presente invenzione offre quindi una soluzione 
che consente : 

30 - di eseguire programmi in modo indistinto su due 

o piu processori, ad esempio del tipo VLIW, costituenti 
un sistema in condizioni di lavoro dinamicamente 
variabili , 
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- assicurare la compatibility binaria fra due o 
piu processori, in particolare processori VLIW aventi 
lunghezza massima diversa di Long Instruction Word. 

Tutto questo facendo si che per supportare 
5 1'esecuzione dei processi non sia necessario l'uso di 
un' architettura multi-processing asimmetrica. 

In sostanza, la soluzione secondo l'invenzione 
consente di realizzare un' architettura di 

multielaborazione o mult i -processing comprendente una 
10 pluralita di processori. 

Nell' esempio di applicazione descritto nel 
dettaglio nel seguito (esempio che si rammenta essere 
tale) i processori considerati sono tutti del tipo 
VLIW. La soluzione secondo l'invenzione e pero 
15 applicabile, ad esempio, ad architetture comprendenti 
uno o piu processori VLIW in combinazione con almeno un 
processore superscalare, l'unico aspetto importante 
essendo che i processori in questione abbiano la stessa 
architettura di insieme di istruzioni (ISA) . 
2 0 La soluzione secondo l'invenzione e infatti basata 

sul riconoscimento di alcuni fatti essenziali. 

Si considerino in primo luogo due o piu processori 
(per semplicita si fara nel seguito riferimento solo a 
processori VLIW) aventi la stessa architettura di 
25 insieme di istruzioni (ISA) , il che implica che su 
ciascuno di essi possa essere eseguita una sequenza 
lineare di istruzioni di base. Ciascun processo/task e 
stato compilato per un certo processore VLIW come 
flusso di istruzioni lunghe in cui la piu lunga ha una 
30 dimensione corrispondente al parallelismo a livello di 
istruzioni per cui il processore VLIW e stato 
progettato . 

Ciascun processore VLIW pud eseguire istruzioni 
con una lunghezza massima diversa: ad esempio, il primo 
35 pud eseguire al massimo 4 istruzioni base in parallelo 



- 11 - 



per ciascun ciclo di clock, mentre il secondo pud 
utilizzare al massimo 8 istruzioni in parallelo per 
ciascun ciclo di clock, 

Ciascun processore ha un'unita di emissione delle 
5 istruzioni che tipicamente legge dalle cache di 
istruzioni un numero di istruzioni pari a quello che § 
in grado di trattare in parallelo. Ad esempio, se il 
processore e in grado di trattare in parallelo fino a 4 
istruzioni, la relativa unita di emissione delle 

10 istruzioni pud leggere simultaneamente fino a 4 
istruzioni ma non un numero maggiore . 

E' possibile prevedere per un secondo processore 
VLIW un'unita di istruzioni modificate che e in grado 
di leggere all'ingresso parole corrispondenti ad 

15 istruzioni molto lunghe originariamente compilate in 
vista dell ' esecuzione su un primo processore VLIW e di 
emettere in uscita parole corrispondenti ad istruzioni 
molto lunghe pronte per essere eseguite sul secondo 
processore VLIW. 

2 0 Questo cambiamento della lunghezza delle \ 

istruzioni pud essere effettuato in condizioni di run 7 
time senza alcuna esigenza di ricompilazione e di 
duplicazione del codice: ciascuna istruzione nella 
parola di istruzione molto lunga e stata infatti 

2 5 schedulata dal compilatore in modo da essere 

indipendente rispetto alle altre. Questo risultato e 
ottenuto sotto forma di una cascata di semplici 
operazioni di suddivisione (split) e di inserimento di 
istruzioni fittizie (no-operation) in funzione della 

3 0 lunghezza delle istruzioni di un qualunque processore 

VLIW. 

Per consent ire la ri-allocazione dinamica di un 
processo compilato ed eseguito su un primo processore 
VLIW in modo da eseguirlo su un secondo processore 
35 VLIW, nella memoria del sistema si mantiene una tabella 
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in cui e immagazzinata 1 ' inf ormazione relativa a 
ciascun processo in termini ident if icativi (si pud 
trattare di un semplice numero d'ordine) del processore 
VL1W per cui e stato compilato nonche un identif icat ivo 
5 (anche in questo caso si pud trattare semplicemente di 
un numero) dell 'ultimo processore VLIW sul quale, 
nell'ambito della pluralita di processori comprendente 
1 ' architettura multi -processore , il processo. e stato 
eseguito, nonche - naturalmente - le coordinate per 
10 rintracciare il suo contesto nella memoria principale: 
Per contesto di un processore si intende qui 
indicare essenzialmente : 

- il valore del Program Counter, 

- il contenuto del file registri (register file) , 
15 - la memoria stack dei dati. 

Utilizzando la soluzione secondo l'invenzione e 
possibile conseguire una notevole semplif icazione in 
termini di ambiente di prog rammazi one e di esigenze di 
memoria e di assorbimento di potenza. Inoltre, la 

20 soluzione secondo l'invenzione risolve un problema 
rilevante nell'ambito dei processori VLIW, vale a dire 
quello della compatibility binaria fra architetture . e 
parallelelismi diversi, consentendo ad esempio il 
trasf erimento dinamico del carico di lavoro di processo 

2 5 fra processori VLIW simmetrici dal punto di vista 
dell'insieme delle istruzioni ed asimmetrici in termini 
di parallelismo di istruzione. 

Breve descrizione dei disegni annessi 
L'invenzione sara ora descritta, a puro titolo di 

30 esempio non limitativo, con riferimento ai disegni 
annessi, nei quali: 

- le figure 1 a 5, relative alia tecnica nota, 
sono gia stati descritte in precedenza, 



- 13 - 



- la figura 6 illustra, sot to forma di uno schema 
a blocchi, 1 ' architettura di un sistema multiprocessore 
suscettibile di operare secondo 1 ' invenzione, 

- le figure 7 e 8 illustrano in maggior dettaglio 
5 i criteri di trattamento di process! nell'ambito di 

un' architettura operante secondo l'invenzione, 

- la figura 9 illustra i criteri di organizzazione 
di un'unita per 1'emissione di istruzioni operanti 
secondo 1 ' invenzione , 

10 - le figure 10 a 12 illustrano dettagli di 

attuazione di vari interventi sul set di istruzioni 
nell'ambito di un sistema operante secondo 
l'invenzione, anche in relazione alia posizione in cui 
si svolge la f ormattazione delle istruzioni, e 

15 - la figura 13 illustra la struttura di una 

tabella suscettibile di essere implementata nell'ambito 
dell ' invenzione . 

L'osservazione dello schema a blocchi della figura 
6 permette di rendersi conto che tale schema riproduce . 

20 essenzialmente 1 ' impostazione generale dello schema, 
della figura 1, gia considerata in precedenza. 

A differenza dell ' architettura rappresentata nella 
figura 1 (che e un' architettura intrinsecamente 
asimmetrica, per la presenza dei due processori CP1 e 

25 DSP, con caratteristiche diverse) , lo schema della 
figura 6 e intrinsecamente simmetrico, in quanto 
prevede la presenza di due (o piu) processori di tipo 
VLIW - qui indicati rispettivamente con VLIW1 e VLIW2 - 
che, pur essendo istanziati secondo criteri diversi, 

30 operano in condizioni di sostanziale simmetria, in 
quanto essi sono in grado di eseguire gli stessi 
processi, senza che cio richieda una ricompilazione 
owero una duplicazione dei codici oggetto per i due 
processori. Tutto questo peraltro potendosi benissimo 
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ammettere la presenza di due (o piu) processors VLIW 
aventi un diverso parallelismo hardware disponibile. 

In particolare, con riferimento alle figure 7 e 8, 
si consideri in una prima fase di compilare il codice 
sorgente di un processo detto Taskl relative al sistema 
operative da eseguire sul processore LVIW1 (si fa 
riferimento alio schema della figura 6) e con il 
relativo compilatore. Si supporr& altresi che al piu 
tale processore possa eseguire in parallelo 4 
istruzioni per ogni ciclo di clock. 

Inoltre, si consideri nella stessa fase di 
compilare il codice sorgente di un processo detto 
Task2, relativo ad esempio all ' applicazione 

audio/video/graf ica multimediale , da eseguire (sempre 
con riferimento alio schema di figura 6) sul processore 
VLIW2, e con il relativo compilatore Si supporra 
altresi che al piu il processore VLIW2 possa eseguire 8 
istruzioni in parallelo per ogni ciclo di clock. 

Naturalmente i suddetti valori (4 e 8, 
rispettivamente) ed il f atto di rif erirsi a - due - 
processor! VIiIW rispondono a pure esigenze 
esemplif icative, sertza in alcun intento limitativb la 
portata dell ' invenzione . 

Si ricorda ancora il fatto che i due processori 
VLIW hanno la stessa architettura di set di istruzioni 
(ISA) . Cio significa che sono definiti dallo stesso 
elenco di istruzioni, sintassi e semantica e lunghezza 
(ad esempio 32 bit per istruzione base) . 

In figura 8 si mostra come si voglia associare 
staticamente e dinamicamente ognuno dei processi in 
modo indifferente su ognuno dei due processori VLIW1 e 
VLIW2 in base a decisioni che possono cambiare 
dinamicamente- Si puo trattare, ad esempio, di 
decisioni basate sul carico dinamico di ognuno dei 
processori, sulla frequenza operativa dinamica e sul 
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consumo di energia istantaneo. Questo con lo scopo 
finale di suddividere equamente il carico di lavoro sui 
due processori . 

Ancora, si rileva che ciascuno dei due (o piu) 
5 processori considerati e in grado di funzionare con una 
frequenza di lavoro diversa, per cui ciascun processore 
pud dinamicamente cambiare la frequenza operativa senza 
compromettere il suo corretto funzionamento. 

Ad esempio, il Taskl, cosi come mostrato in figura 

10 7, e compilato per generare un flusso di istruzioni 
lunghe con massima lunghezza 4, supponendo di eseguirle 
su processore VLIW1 . 

Il Task 2 e invece compilato per generare un 
flusso di istruzioni lunghe con massima lunghezza 8, 

15 supponendo di volerla eseguire su processore VLIW2 . 

Sempre a titolo esemplif icativo si supponga ancora 
di voler invert ire l'associazione definita, volendo 
associare i Task2 al processore VLIW1 ed il Taskl al 
processore VLIW2 . 

20 La figura 9 mostra come il cosiddetto istruction 

issue unit (owero l'unita di emissione delle 
istruzioni, nel seguito indicata semplicemente come 
IIU) di un processore come notato in figura 3 deve 
essere modificata per assolvere il seguente compito al 

25 fine di assicurare la compatibility binaria senza 
duplicare il codice oggetto. 

Si supponga che la IIU proposta dal processore 
VLIW1 riceva istruzioni lunghe 8x32 bit mentre il 
processore pud eseguirne al piu 4x32 bit per ciclo. 

30 L'unita IIU dovra quindi suddividere (splittare) 

le istruzioni in ingresso in due istruzioni lunghe 
4xbit . 

Si supponga ora che l'unita IIU del processore 
VLIW2 riceva istruzioni lunghe 4x32 bit mentre il 
35 processore pud eseguirne al piu 8x32 bit per ciclo. 
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L'unita IIU in questione deve quindi allungare 
1' istruzione di ingresso mediante 4x32 bit istruzioni 
nulle del tipo no-operation o, in breve, nop. 

Un tipico esempio (ben noto agli esperti del 
5 settore) di un istruzione nop e 1' istruzione di 
effettuare la somma del numero 0 con se stesso da 
scrivere nel registro che contiene tale 0, che e a sola 
lettura. Si tratta quindi di un' istruzione che esprime 
un non senso voluto . Inoltre le istruzioni nop 

10 provocano lo spegnimento di quattro su otto unit a 
funzionali riducendo il consumo di potenza del 
processore VLIW2 . 

Gli esempi sopra considerati possono evidentemente 
essere generalizzati nel modo seguente . 

15 1. Si consideri essere LI la lunghezza massima 

dell ' istruzione lunga che il processore VLIW1 consente 
di eseguire: ad esempio VLIW1 pud eseguire fino a 13 
istruzioni in parallelo, ognuna con lunghezza pari a 32 
bit . 

20 2. Si consideri essere L2 la lunghezza massima 

dell ' istruzione lunga che il processore VLIW2 consente 
di eseguire: ad esempio VLIW2 puS eseguire . fino a 3 
istruzioni in parallelo ciascuna con lunghezza 32 bit. 
3 . Sia LI >=L2 . 

25 4. Sia A=Ll/L2 il risultato intero della divisione 

fra LI e L2 . Per semplicita, si supponga che tale 
risultato sia pari a 4 . 

5. Sia B il resto intero dell ' operazione L1/L2, 
resto che e evidentemente minore di L2 . Si pud 

30 supporre, ad esempio che tale resto sia pari ad 1. 

6. Si vuole eseguire un' istruzione di lunghezza LI 
sul processore VLIW2 . 

Di conseguenza: 

- se B e uguale a zero, si decompone la lunghezza 
35 LI in A istruzioni lunghe L2 , 
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- se B e diverso da zero, si decompone LI in A 
istruzioni lunghe L2, alle quali si aggiunge una 
ulteriore istruzione lunga L2 , composta dalle rimanenti 
istruzioni di LI non utilizzate per comporre le 
5 precedenti A istruzioni lunghe L2 , in numero di B 
istruzioni del set LI, aggiungendo ancora L2-B 
istruzioni nop. 

7. Si vuole eseguire un' istruzione di lunghezza L2 
sul processore VLIW1; all ' istruzione L2 si devono 
10 quindi aggiungere L1-L2 istruzioni nop. 

Si apprezzera che gli stessi criteri si applicano 
se L2>L1 , essendo sufficiente scambiare l'indice 1 con 
l'indice 2 senza compromettere la generalita del 
metodo . 

15 La figura 9 illustra un ulteriore esempio di- 

quanto detto sopra, esempio che si riferisce in modo^ 
specif ico al caso in cui LI e pari a 4 e L2 e pari a 8*. 

Un'altra soluzione, cui fanno specif ico 
riferimento le figure 10 e 11, pud consistere 

20 nell ' esplicitare nelle istruzioni macchina del 
processore diversi bit cosiddetti di fine gruppo o' 
"stop bundle" relativi a diverse lunghezze di parola, 
cioe diversi livelli massimi di parallelismo eseguibili 
dalla macchina. 

25 Nel caso della figura 10, un processore costruito 

con parallelismo A utilizza come indicatore di fine 
bundle il bit 31 ignorando il bit 30. Viceversa, un 
processore costruito con parallelismo B utilizza come 
indicatore di fine bundle il bit 30, ignorando il bit 

30 31. La verifica della fine di bundle viene fatta 
normalmente a livello di instruction issue (IIV) . 

Poiche ogni processore ha una cache istruzioni 1$ 
• associata e (potenzialmente) un 

compressore/ decompressore del codice da eseguire, la 
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soluzione illustrata nella figura 10 pud essere 
generalizzata nel raodo seguente. 

Sia dato un generico istruction set con istruzioni 
codificate su N bit (ad esempio, sia N=32) . Si supponga 
altresi che uno di questi bit codifichi l'istruzione di 
stop bundle per il processore. A queste parole si 
aggiungono K bit che codificano 1 ' inf ormazione di stop 
bundle per diverse lunghezze di parola. Ad esempio, sia 
K=4, per cui i 4 bit in questione codificano 
1' inf ormazione stop bundle per lunghezze 

rispettivamente pari a 2, 4 , 6, 8. 

In fase di decodifica, ossia in fase di ri- 
riempimento (refill) della cache, owero in fase di 
decompressione del codice, pud essere effettuata 
l'operazione di collocamento dell ' opportuno stop bundle 
nel bit di istruzione "effettiva" a seconda del 
parallelismo della macchina che esegue il codice. Si 
veda al riguardo la figura 11. 

In particolare, in tale figura si vede - nella 
parte superiore, indicata con A - una situazione in cui 
il bit 31 non ha previsto 1 ' inserimento di 
un' inf ormazione di stop bundle.. Tutto questo per quanto 
rigurda il bit 31 della porzione dell ' istruzione , 
indicata con AI , in cui e inserita l'istruzione., vera e 
propria* Nell 7 appendice di istruzione, indicata con IA, 
sono invece inserite le informazioni di stop bundle ed 
in particolare per ampiezze di uscita rispettivamente 
pari a 2 (SB2) , a 4 (SB4), a 6 (SB6) e ad 8 (SB8) , 
rispettivamente . 

La situazione rappresentata nella parte B della 
figura 11 si riferisce invece alia esecuzione su una 
macchina con larghezza 4. In tale situazione , . lo stop 
bundle per la larghezza pari a 4 viene collocato 
nell ' istruzione in corrispondenza del bit 31. Tutto 
questo con la conseguente possibility di scartare la 



parte di appendice IA, cosi da dare origine ad un 
formato di istruzione rappresentato nella parte C della 
stessa figura 11. Il modulo che realizza 1'operazione 
appena descritta viene definito modulo di f ormattazione 
delle istruzioni o "instruction formatter. 

L' operazione appena descritta pud essere 
effettuata in diverse posizioni nel sistema. Si 
osservera ancora che nella figura 10 sono state 
rappresentate, procedendo dall'alto verso il basso, le 
diverse possibili combinazioni dei bit in posizione 3 0 
e 31, destinati a fungere rispettivamente come stop- 
bundle per le larghezze di uscita B (bit 30) ed A (bit 
31) i 4 seguenti casi: 

- assenza della fine del bundle, 

- fine del bundle A, 

- fine del bundle B, e 

- fine di entrambi i bundle A e B. 

Osservando la figura 12, si puo vedere che e 
possibile collocare il suddetto f ormattatore, indicato 
con IF tra 1'eventuale decompressore di istruzioni CD e 
- in ogni caso - fra la memoria principale MM e la 
cache 1$. Alternativamente, il - f ormattatore IF puo 
essere posizionato subito prima del processore VLIW e 
quindi dopo la cache 1$ o addirittura nello stadio di 
decodifica del processore VLIW. Quest 'ultimo caso e lo 
stesso descritto precedentemente con riferimento alia 
figura 10 per K=2, N=3 0 . 

In fase di compilazione , quindi, il compilatore 
genera tutte le informazioni aggiuntive (stop bundle) 
per tutte le larghezze di uscita previste nella 
appendice di istruzione IA. Queste saranno poi 
utilizzate dal formattatore IF a seconda della 
conf igurazione dello stesso. 

L'operazione svolta dal formattatore IF consiste 
solo nell ' inserzione di un bit e nell ' eliminazione 
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dell' appendice IA. Si tratta di operazioni suscettibili 
di essere implement ate in modo elementare a livello 
hardware, cosi come evidente alle persone esperte del 
settore- 

5 Le istruzioni che compongono i task della figura 8 

sono presenti nella memoria del sistema MEM e sono 
indirizzate mediante il Program Counter prowisto in 
ciascun processore VLIW prowisto (vedere la figura 6) . 
Tali istruzioni sono caricate dall'unita fetch di 

10 figura 3 ed opportunamente adattate al parallelismo del 

*" processore secbndo la soluzione implementata dall'unita 
IIU descritta in precedenza con particolare riferimento 
alia figura 9. 

La soluzione secondo 1'invenzione offre il 

15 vantaggio rilevante dato dalla completa compatibility 
binaria fra i due (o piu) processori, intesa come 
capacita di eseguire indistintamente detti processi sui 
vari processori VLIW compresi in un sistema 
multiprocessore utilizzando lo stesso codice compilato 

20 senza inutili duplicazioni . Tale capacita consente 
inoltre di distribuire dinamicamente il carico 
- - - computazionale sui vari processori in modo da poter 
equalizzare la frequenza operativa dei processori 
stessi rispetto al massimo punto . Si consegue cosi un 

2 5 risparmio di potenza dissipata che, come e noto, 

dipende linearmente dalla frequenza operativa del 
processore . 

Al fine di meglio chiarire come sia possibile 
spostare 1'esecuzione di un processo da un processore 
30 VLIW all'altro si consideri l'esistenza di una tabella 
memorizzata nella memoria MEM del sistema. 

Con riferimento alia figura 13, descrivendola da 
sinistra verso destra, la tabella mostra: 

- una lista di processi (Process) in esecuzione o 

3 5 sospesi su un qualsivoglia processore, 
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- il numero progressivo (Num) dello stesso in base 
all'ordine di attivazione, 

- la percentuale (% VLIW) di potenza massima del 
processore che e utilizzata da detto processo, 

5 - il tempo di esecuzione (Exec. time) che, se nullo 

indica che il processo e temporaneamente sospeso 
dall ' esecuzione , 

la quantita di memoria (Memory) del sistema 
utilizzato dal processo per poter eseguire la funzione 
10 al quale e preposto, 

la lunghezza massima (Compiled For VLIW Of 
Length) dell ' istruzione lunga che il processore VLIW 
pud eseguire e per il quale era stata generata durante 
la compilazione, 
15 - lunghezza massima (Execution on VLIW of Length), 

dell' istruzione lunga del processore VLIW sul quale e 
eseguito, e 

- l'indirizzo della porzione di memoria (Memory 
address) nel quale i dati e le istruzioni sono 

20 memorizzate, in altre parole il contesto. 

Questa tabella e accessibile da un processo detto, 
di controllo che e eseguito per un tempo prefissato su 
ognuno dei processori VLIW. Attraverso tale processo, 
ogni processore ha quindi la possibility di consultare 

25 e aggiornare la tabella al fine di equalizzare il 
proprio carico di lavoro rispetto al secondo 
processore. Tale tabella contiene altresi le coordinate 
affinche un processore possa prendere possesso ed 
eseguire uno dei processi elencati. 

3 0 La soluzione descritta e evidentemente estendibile 

ad un numero qualsiasi di processori VLIW che 
costituiscono il sistema ed ogni dei quali abbia una 
qualunque lunghezza massima dell ' istruzione lunga da 
eseguire, ove detta lunghezza vari da un processore 

35 all'altro. 
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Naturalmente, fermo restando il principio 
dell' invenzione, i particolari di realizzazione e- le 
forme di attuazione potranno essere ampiamente variati 
rispetto a quanto descritto ed illustrato senza per 
questo uscire dall'ambito della presente invenzione, 
cosi come definito dalle rivendicazioni annesse. 
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RI VEND I C AZ I ONI 

1. Procedimento per eseguire programmi su un 
sistema multiprocessors comprendente una pluralita di 
processori (VLIW1, VLIW2) aventi una data architettura 
5 di insieme di istruzioni (ISA) , ciascuno di detti 
. processori essendo suscettibile di eseguire, a ciascun 
ciclo di elaborazione, un rispettivo numero massimo di 
istruzioni , 

caratterizzato dal fatto che comprende le 
10 operazioni di : 

- compilare, almeno in parte, le istruzioni di 
detti programmi come parole di istruzione di lunghezza 
data (LI risp. L2) eseguibili su un primo processore 
(VLIW1 risp. VLIW2) di detta pluralita, 

15 - modificare almeno alcune di dette parole di* 

istruzione di lunghezza data trasf ormandole in parole 
di istruzione modificate eseguibili su un secondo- 
processore (VLIW2 risp. VLIW1) di detta pluralita, 
detta operazione di modificare comprendendo a sua volta 

2 0 almeno un' operazione scelta nel gruppo costituito da: 

- suddividere dette parole di istruzione in parole; - 
di istruzione modificate, e 

- inserire nelle parole di istruzione modificate 
istruzioni nulle (nop) . 

25 2. Procedimento secondo la rivendicazione 1, 

^ caratterizzato dal fatto che comprende le operazioni 
di: 

- compilare le istruzioni di detti programmi in 
parte come prime parole di istruzione aventi una prima 

30 lunghezza data (LI risp. L2) ed eseguibili su detto 
primo processore (VLIW1 risp VLIW2) di detta pluralita 
ed in parte come seconde parole di istruzione di 
lunghezza data (L2 risp. LI) eseguibili su un secondo 
processore (VLIW2 risp. VLIW1) di detta pluralita, 
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- modificare almeno alcune di dette prime parole 
di istruzione in prime parole di istruzioni modificate 
eseguibili su detto secondo processore (VLIW2 risp. 
VLIWl) di detta pluralita, e 

5 - modificare almeno alcune di dette seconde parole 

di istruzione in seconde parole di istruzioni 
modificate eseguibili su detto primo processore (VLIWl 
risp. VLIW2) di detta pluralita. 

3. Procedimento secondo la rivendicazione 2, 

10 caratterizzata dal fat to che dette prime parole di 
istruzione e dette seconde parole di istruzione hanno 
rispettivamente una prima (LI) ed una seconda (L2) 
lunghezza massima con detta prima lunghezza massima 
(LI) maggiore di detta seconda lunghezza massima (L2) , 

15 il quoziente fra detta prima lunghezza massima (LI) e 
detta seconda lunghezza massima (L2) avendo un valore 
dato (A) con eventuale presenza di un resto (B) e dal 
fatto che il procedimento comprende le operazioni di : 

a) per modificare dette prime parole di istruzione 
2 0 aventi detta prima lunghezza massima (LI) in prime 

parole di istruzioni modificate aventi detta seconda 
lunghezza massima (L2) : 

- suddividere dette prime parole di istruzione in 
un numero di dette prime parole di istruzione 

2 5 modificate pari al valore di detto quoziente (A) , e 

- in presenza di detto resto (B) , aggiungere a 
dette prime parole di istruzione modificate un 
ulteriore parola di istruzione modificata di lunghezza 
pari .a detta seconda lunghezza massima (L2) , detta 

30 seconda lunghezza massima essendo ottenuta inserendo in 
detta ulteriore prima parola di istruzione modificata 
un insieme di istruzioni nulle (nop), e 

b) per modificare dette seconde parole di 
istruzione aventi detta seconda lunghezza massima (L2) 
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in seconde parole di istruzioni modificate aventi detta 
prima lunghezza massima (LI) : 

- aggiungere a dette seconde parole di istruzione 
di detta seconda lunghezza massima (L2) un numero di 

5 istruzioni nulle (nop) pari alia differenza (L1-L2) fra 
detta prima lunghezza massima (Ll) e detta seconda 
lunghezza massima (L2) ♦ 

4. Procedimento secondo la rivendicazione 1, 
caratterizzato dal fatto che comprende le operazioni 

10 di: 

- codificare dette istruzioni su un numero dato di 
bit (N) , detto numero di bit comprendendo un primo bit 
identif icatore di una lunghezza di parola di istruzione 
eseguibile su un processore (VLIW1, VLIW2) di detta 

15 pluralita: 

associare a detto numero dato di bit, una 
rispettiva appendice (IA) comprendente un insieme di 
ulterior! bit identif icativi di lunghezze di parole di 
istruzione eseguibili su diversi processori (VLIW1, 

20 VLIW2) di detta plurality, 

- identif icare, per ciascuna di dette istruzioni, 
un processore di detta pluralita destinato ad eseguire 
detta istruzione, detto elaboratore identificato 
essendo suscettibile di elaborare per ciascun ciclo di 

25 elaborazione, una lunghezza di parola di istruzione 
data, e 

inserire nella posizione di detto primo bit 
identif icatore un bit scelto fra detti ulteriori bit di 
detta appendice (IA) , detto bit scelto essendo 
30 identif icativo della lunghezza di parola di istruzione 
suscettibile di essere eseguita da detto processore 
identificato . 

5. Procedimento secondo la rivendicazione 4, 
caratterizzato dal fatto che comprende l'operazione di 



cancellare detta rispettiva appendice (IA) prima 
dell' esecuzione dell ' istruzione . 

6. Procedimento secondo la rivendicazione 4 o la 
rivendicazione 5, caratterizzato dal fatto che detto 
bit scelto viene inserito nella posizione di detto 
primo bit identif icatore in una fase scelta fra: 

la decodifica dell ' istruzione in vista 
dell ' esecuzione, 

- il refill della cache (1$) associata a detto 
processore identif icato, e 

decompressione de^ll ' istruzione in vista 
dell ' esecuzione . 

7. Procedimento secondo una qualsiasi delle 
precedenti rivendicazioni , caratterizzato dal fatto che 
comprende l'operazione di : 

- distribuire alternativamente 1' esecuzione delle 
istruzioni di detta sequenza fra i processori di detta 
pluralita (VLIW1, VLIW2, ...) dette istruzioni essendo 
direttamente eseguibili da parte dei processori di 
detta pluralita (VLIW1, VLIW2) in condizioni di 
compatibility binaria. 

8. Procedimento secondo la rivendicazione 7, 
caratterizzato dal fatto che comprende l'operazione di 
distribuire selettivamente 1' esecuzione di dette 
istruzioni tra i processori di detta pluralita (VLIW1, 
VLIW2) distribuendo dinamicamente il carico 
computazionale di detti processori 

9. Procedimento secondo la rivendicazione 8, 
caratterizzato dal fatto che comprende l'operazione di 
distribuire selettivamente 1' esecuzione di dette 
istruzioni fra detti processori di detta pluralita 

(VL.IW1, VLIW2) con il criterio di equalizzare la 
frequenza operativa dei processori di detta pluralita 

(VLIW1 , VLIW2 , . . . ) . 
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10. Procedimento secondo una qualsiasi delle 
rivendicazioni 7 a 9, caratterizzato dal fatto che 
comprende 1'operazione di svolgere un processo di 
controllo eseguito da almeno uno dei processori di 

5 detta pluralita cosi da equalizzare il proprio carico 
di lavoro rispetto agli altri processori di detto 
sistema multiprocessore. 

11. Procedimento secondo la rivendicazione 10, 
caratterizzato dal fatto che comprende l'operazione di 

10 costituire una tabella accessibile da detto processo di 
controllo, detta tabella comprendendo voci scelte nel 
gruppo costituito da: 

- una lista di processi (Process) in esecuzione o 
sospesi su un qualsivoglia processore didetta 

15 pluralita, 

- il numero progressivo (Num) dello stesso in base 
all'ordine di attivazione, 

- la percentuale (% VLIW) di potenza massima .del 
processore che e utilizzata da detto processo, 

20 - il tempo di esecuzione (Exec. time) , detto tempo, 

se nullo, indicando che il processo e temporaneamente 

sospeso dal 1' esecuzione, 

la quantity di memoria (Memory) del sistema 

utilizzato dal processo per poter eseguire la funzione 
25 al quale e preposto, 

la lunghezza massima (Compiled For VLIW Of 

Length) dell ' istruzione lunga che il processore VLIW 

pud eseguire e per il quale era stata generata durante 

la compilazione, 
30 - lunghezza massima (Execution on VLIW of Length) 

dell' istruzione lunga del processore VLIW sul quale e 

eseguito, e 

- l'indirizzo della porzione di memoria (Memory 
address) nel quale i dati e le istruzioni sono 

35 memorizzate. 
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12. Sistema multiprocessore, configurate per 
operare con il procedimento secondo una qualsiasi delle 
rivendicazioni 1 a 11. 

13. Sistema multiprocessore secondo la 
rivendicazione 12, caratterizzato dal fatto che detti 
processori sono tutti del tipo VLiIW. 

14. Sistema multiprocessore secondo la 
rivendicazione 12, caratterizzato dal fatto che detta 
plural ita di processori comprende almeno un processore 
VL.IW ed almeno un processore superscalare . 



RIASSUNTO 

Programmi aventi una data architettura di insieme 
di istruzioni (ISA) sono eseguiti su un sistema 
multiprocessor^ comprendente una pluralita di 
processori, ad esempio di tipo VLIW, ciascuno di tali 
processori essendo suscettibile di eseguire, a ciascun 
ciclo di elaborazione, un rispettivo numero massimo di 
istruzioni, Le istruzioni sono ocompi late come parole di 
istruzione di lunghezza data (La risp. L2) eseguibili 
su un primo processore (VLIW1 risp. VLIW2) . Almeno 
alcune delle parole di istruzione di lunghezza data 
sono trasformate (IIU) in parole di istruzione 
modificate eseguibili su un secondo processore, 
L' operazione di modificare comprende a sua. vol ta almeno 
un' operazione scelta nel gruppo costituito da: 

- suddividere le parole di istruzione in parole di 
istruzione modificate, e 

- inserire nelle parole di istruzione modificate 
istruzioni nulle (nop) . 

(Figura 9) 



